华人一作!Meta等复刻AlphaZero神话,AI甩开人类自修成神
华人一作!Meta等复刻AlphaZero神话,AI甩开人类自修成神当模型学会「左右互搏」的那一刻,平庸的模仿时代结束了,真正的硅基编程奇迹刚刚开始。
来自主题: AI技术研报
9478 点击 2025-12-29 09:06
当模型学会「左右互搏」的那一刻,平庸的模仿时代结束了,真正的硅基编程奇迹刚刚开始。
OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。
Self-play RL 开启 AGI 下半场
进入现今的大模型 (LLM) 时代,又有研究者发现了左右互搏的精妙用法!近日,加利福尼亚大学洛杉矶分校的顾全全团队提出了一种新方法 SPIN(Self-Play Fine-Tuning),可不使用额外微调数据,仅靠自我博弈就能大幅提升 LLM 的能力。